CONTENIDO
LÍNEA DE
INVESTIGACIÓN
RESUMEN
Reconocimiento
de caracteres
Preproceso
algoritmos 1-4
Postproceso:
Corrector
Ortográfico
Palabras Clave
Base
metodológica
Proceso
digitalización
Análisis de
Resultados
CONCLUSIONES
POSTPROCESO: Corrector Ortográfico, Peter Norvig
Corrige palabras con errores tipográficos y, al mismo tiempo, no altera la ortografía correcta. A una
palabra se aplica todas las ediciones posibles, como eliminar, insertar, transponer, reemplazar y
dividir.
Cada palabra se agrega a una lista de candidatas, se repite para cada palabra una segunda vez para
obtener candidatos con mayor distancia de edición.
Se estima la probabilidad de algún fragmento como producto de todos los n-gramas de tamaño n:
P(w1,…,wn) =
P(wiw1,…,wi-1)
Para mejorar la precisión:
Ps(wii-2, wi-1) = P(wii-2,wi-1)* P(wii-1)*P(wi)
Descarga de Corpus nltk.download('cess_esp')
Construcción de diccionario
frecuencia de palabras
WORD_COUNTS =
Counter(palabras(texto_corpus))
Corrección de palabras t_corregido = '
'.join(corregir(palabra) for palabra
in palabras_t)
Ejemplo:
Entrada: texto_1 = ['La siscripcion es de',
'un peso mesual, y un',
'real el llúmero suelto']
Salida: texto_2 = ['La suscripcion es de',
'un peso mensual, y un',
'real del Número suelto']